Các kĩ thuật phân loại bằng thống kê Phân_loại_bằng_thống_kê

Trong khi có rất nhiều phương pháp phân loại, chúng thường buộc phải giải quyết một trong ba vấn đề liên quan đến toán học sau.

Vấn đề đầu tiên là tìm một ánh xạ của một không gian đặc trưng (thường là một không gian vec-tơ đa chiều) đến một tập các nhãn. Điều này là tương đương với việc phân hoạch không gian đặc trưng thành các vùng nhỏ hơn, sau đó gán một nhãn vào mỗi vùng. Các giải thuật dạng này (ví dụ, giải thuật hàng xóm gần nhất) thường không đem lại sự tin cậy hay xác suất class (posterior probability), trừ phi quá trình xử lý sau được áp dụng. Một tập các giải thuật khác để giải quyết vấn đề này trước tiên là áp dụng việc phân mảnh không có giám sát không gian đặc trưng ra, sau đó cố gắng đánh nhãn cho mỗi mảnh (hay vùng) được phân ra đó.

Vấn đề thứ hai là xem xét việc phân loại như là một bài toán về ước lượng, với mục tiêu là ước lượng xem một hàm có dạng

P ( c l a s s | x → ) = f ( x → ; θ → ) {\displaystyle P({\rm {class}}|{\vec {x}})=f\left({\vec {x}};{\vec {\theta }}\right)}

với vec-tơ đặc trưng đầu vào là x → {\displaystyle {\vec {x}}} , và hàm f là được tham số hóa bởi một số tham số θ → {\displaystyle {\vec {\theta }}} . Trong hướng tiếp cận Bayes cho vấn đề này, thay vì chọn một tham số vec-tơ đơn lẻ θ → {\displaystyle {\vec {\theta }}} , kết quả sẽ tích hợp trên mọi thê-ta có thể có, với cách đánh trọng số dựa vào như cách đưa ra tập huấn luyện D:

P ( c l a s s | x → ) = ∫ f ( x → ; θ → ) P ( θ → | D ) d θ → {\displaystyle P({\rm {class}}|{\vec {x}})=\int f\left({\vec {x}};{\vec {\theta }}\right)P({\vec {\theta }}|D)d{\vec {\theta }}}

Bài toán thứ ba liên quan tới bài toán thứ hai, nhưng yêu cầu của nó là ước lượng xác suất có điều kiện-class P ( x → | c l a s s ) {\displaystyle P({\vec {x}}|{\rm {class}})} và rồi sử dụng quy luật Bayes để đưa về xác suất lớp nhu bài toán số hai.

Các ví dụ về các giải thuật phân loại bao gồm: